【1】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

【URL】http://arxiv.org/abs/2307.15818

【Time】2023-07-28

一、研究领域

Robotic Control, Vision-Language Model

二、研究动机

对web-scale数据训练的大型视觉语言模型进行微调,以直接充当可泛化和语义感知的robitic policies

三、方法与技术

(1)预训练VLM:Base Model 是 PaLI-X 和 PaLM-E

(2)将Action离散化为Token,将Robot数据转化为适合VLM模型的数据:方法和RT-1一致

(3)Co-fine-tuning:用 robotics data 和 original web data 共同微调VLM(按比率提高)

(4)实时推理

Untitled

四、总结

最重要的是数据的混合和比例分配

【2】Learning Interactive Real-World Simulators

【URL】http://arxiv.org/abs/2310.06114

【Time】2023-10-09

一、研究领域

World Model, 交互式 Agent, 通用视频生成

二、研究动机

向构建交互式真实世界模拟器迈出第一步

三、方法与技术

(1)数据融合:Simulated execution and renderings, Real robot data, Human activity videos, Panorama scans, Internet text-image data.

(2)训练条件扩散模型:文本和action使用T5转换为连续嵌入,条件是action和先前的噪声观察

(3)定义真实世界为一个POMDP(马尔可夫决策问题):POMDP 可以定义为一个元组 M := ⟨S, A, O, R, T , E⟩,由状态、动作和观察空间以及奖励、转换和观察发射函数组成。 POMDP 可以表征与现实世界的交互。

(4)训练UniSim作为转移函数:Base Model 是Video Diffsion,训练方式是CFG

Untitled

四、总结

交互式现实世界模拟器和典型视频生成模型之间的主要区别在于,模拟器需要支持:

(1)a diverse set of actions

(2)long-horizon rollouts.

UniSim的Demo能力非常强悍:https://universal-simulator.github.io/unisim/

但同时训练所需数据量也非常非常巨大:

Untitled

【3】Video Language Planning

【URL】https://openreview.net/forum?id=9pKtcJcMP3

【Time】2023-10-13

一、研究领域

Video Language Planning, Robotic

二、研究动机

基于 VLP 的系统比最先进的替代方案更有可能实现长视野指令的任务完成,包括直接针对长期任务进行微调的方法 PaLM-E 和 RT-2 。

三、方法与技术

(1)使用VLM规划任务

(2)使用启发式算法搜索和约束任务

(3)使用Video作为Dynamics Model预测状态(包括结果状态和中间状态插值)

(4)根据Policies的调整对video做action regression和replanning

Untitled

四、总结

Pipeline极其复杂,但任务拆解和规划的思路比较清晰合理

五、推荐相关阅读

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control